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1- Définition du Weka : 


Weka est un logiciel libre de datamining développé en java par l’université de Waikato et publié 
sous licence GNU General Public License. 


Son développement à commencé en 1992 en C, puis en 1997 l’équipe de développement à 
décider d'utiliser le langage java. Weka est utilisé par les data scientist à des fins d'analyse de 
données. 


Il présente de nombreux avantages tels que la gratuité, portabilité, facilité d'utilisation et enfin 
une large collection de modèles de machine learning . tels que les Réseaux de neurones, les arbres 
décisionnels, où encore les k-moyennes. 


La grande particularité de Weka par rapport à d’autres frameworks de machine learning est que 
celui-ci dispose d’une interface graphique ce qui lui permet d’être manié par des néophytes. 


Mais également pour les plus expérimentés d'une bibliothèque Java qui permettra à ces derniers 
de passer de la phase d'expérimentation à la phase industrielle. 


2- Historique de weka : 


En 1992, l'université de Waikato en Nouvelle- 
Zélande commença le développement de la version originale 
de Weka (qui devint un mélange de Tcl/Tk, de langage C et 
de Makefile). 
En 1997, la décision fut prise de développer une nouvelle fois 
Weka à partir de zéro en Java, y compris l'implémentation des algorithmes de modélisation’. 
En 2005, Weka reçoit le SIGKDD (Data Mining and Knowledge Discovery Service Award). 
En 2006, Pentaho acquiert une licence exclusive pour utiliser Weka pour de l'informatique 
décisionnelle. Il forme le composant d'exploration de données analytique et prédictif de la suite 
de logiciels décisionnels Pentaho. 


2.1-Téléchargement de weka : 


Pour télécharger l'outil weka, il faut se rendre sur la page du site de l’Université de 
waikato dédié à son 


Téléchargement https://sourceforge.net/projects/weka/ .Ensuite il suffit de choisir la 
version compatible au système d'exploitation qui accueillera l'outil. 


3 - Description : 


L'espace de travail Weka contient une collection d'outils de visualisation et d'algorithmes pour 
l'analyse des données et la modélisation prédictive, allié à une interface graphique pour un accès 
facile de ses fonctionnalités. La version « non-Java » originale de Weka était un front- 
end en Tcl/Tk pour des algorithmes de modélisation (essentiellement tierces) implémentés dans 
d'autres langages de programmation, complété par un des utilitaires de préprocesseur de données 
en C, et un système à base de makefile pour lancer les expériences d'apprentissage automatique. 
Cette version originale était avant tout conçue comme un outil pour analyser des données agricoles, 
mais la version plus récente entièrement basée sur Java (Weka 3), pour laquelle le développement a 
débuté en 1997, est désormais utilisée dans beaucoup de domaines d'application différents, en 
particulier pour l'éducation et la recherche. 


3.1- Les principaux points forts de weka : 


est libre et gratuit, distribué selon les termes de la licence publique générale GNU ; 
est portable car il est entièrement implémenté en Java et donc fonctionne sur quasiment toutes 
les plateformes modernes, et en particulier sur quasiment tous les systèmes 
d'exploitation actuels ; 
contient une collection complète de préprocesseurs de données et de techniques de 
modélisation ; 
e est facile à utiliser par un novice en raison de l'interface graphique qu'il contient. 


3.2- Aperçu du logiciel : 


« Explorer » : Visualisation, traitement des données. 

« Expérimenter » : Application de méthodes de fouilles de données multiples sur des 
bases de données multiples. 

« Knowledge Flow » : Constructions graphiques de procédures de traitement de 
données. Equivalent à Pipeline Pilot. 

« Workbench » Interface regroupant en un seul endroit le SimpleCli, Explorer, 
KnwoledgeFlow et Experimente 

« Simple CLI » : interface en ligne de commande. Pratiquement équivalent à écrire un 
logiciel en Java. 
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4- Description des datasets : 


Dataset d'apprentissage : 

Nom du dataset : credit-g.arff 
Nombre d’instances :1000 
Nombre d’attributs : 21 
Dataset-test d'apprentissage : 
Nom du dataset : credit-g-test.arff 


Nombre d’instances : 588 


5 Partie Explorer: 


1 Premier Algorithme : Naïve-Bayes (NB) 


Options TP Rate | FP Rate | Précision | Recall | F-Measure ROC Area | PRC Area 
0,772 0,362 0,763 0,772 | 0,766 0,809 0,817 


Use training set 


Suplied test set 0,782 0,367 0,773 0,782 | 0,775 0,820 0,832 


Cross validation | 0,754 0,393 0,743 0,754 | 0,746 0,787 0,797 
Folds = 10 
Leave one out 0,751 0,400 0,740 0,751 | 0,742 0,784 0,795 
Folds = 999 
Pourcentage 0,765 0,390 0,760 0,765 | 0,762 0,804 0,834 
split = 66% 


Conclusion : Pour l’algorithme de Naive Bayse Pourcentage split donne les meilleurs résultas. 


2 Deuxiéme Algorithme: K-Nearest-Neighbor (KNN) 


Les résultats suivant sont trouver avec un K = 3; 


Options 


Précision 


F-Measure 


ROC Area 


PRC Area 


Use training set 


1,000 


1,000 


1,000 


1,000 


Suplied test set 


1,000 


1,000 


1,000 


1,000 


Cross validation 
Folds = 10 


0,716 


0,718 


0,660 


0,669 


Leave one out 
Folds = 999 


0,723 


0,725 


0,666 


0,674 


Pourcentage 
split = 66% 


0,731 


0,729 


0,658 


0,691 


Conclusion : Pour l’algorithme de KNN Pourcentage split donne les meilleurs résultas. 


3 Troisiéme Algorithme : C4.5 


Options 


TP Rate 


FP Rate 


Précision 


Recall 


F-Measure 


ROC Area 


PRC Area 


Use training set 


0,855 


0,279 


0,855 


0,855 


0,847 


0,857 


0,869 


Suplied test set 


0,864 


0,270 


0,863 


0,864 


0,858 


0,869 


0,881 


Cross validation 
Folds = 10 


0,705 


0,475 


0,687 


0,705 


0,692 


0,639 


0,657 


Leave one out 
Folds = 999 


0,710 


0,475 


0,691 


0,710 


0,696 


0,570 


0,655 


Pourcentage 
split = 66% 


0,726 


0,468 


0,716 


0,726 


0,721 


0,605 


0,673 


Conclusion : Pour l’algorithme de C4.5 Pourcentage split donne les meilleurs résultas. 


4 Quatriéme Algorithme : One-Rule (1R) 


Options 


Précision 


F-Measure 


ROC Area 


PRC Area 


Use training set 


0,725 


0,718 


0,632 


0,657 


Suplied test set 


0,753 


0,741 


0,644 


0,677 


Cross validation 
Folds = 10 


0,608 


0,620 


0,524 


0,591 


Leave one out 
Folds = 999 


0,600 


0,612 


0,515 


0,587 


Pourcentage 
split = 66% 


0,684 


0,690 


0,567 


0,642 


Conclusion : Pour l’algorithme de OneR Pourcentage split donne les meilleurs résultas. 


6 Partie Expérimenter : 


C'est l'étape suivante après l'utilisation de Weka Explorer, où vous pouvez charger une ou 
plusieurs vues de votre ensemble de données et une suite d'algorithmes et concevoir une 
expérience pour trouver la combinaison qui donne les meilleures performances. 


Exemplel : 


Data set : credit-g 

Mode de configuration :simple 

Setup : Run : 

Algorithme : J48 22:48:55: Started 

Méthode : cross validation 22:48:57: Finished 
Folds=10,Répitition=10 22:48:57: There were 0 errors 


Analyse : 


Dataset (1) trees.J48 


Exemple? : 


On utilisé plusieurs data set et algorithme à la fois : 


Data set : credit-g,iris 

Mode de configuration :simple 

Setup : Run : 

Algorithme : J48 22:52:28: Started 

Méthode : cross validation 22:52:29: Finished 
Folds=10,Répitition=10 22:52:30: There were 0 errors 


Analyse: 


Dataset (1) trees.J48 


german _credit (100) 71.25 | 
(100) 94.73 | 


Exemple3: 


Data set : credit-g,iris 

Mode de configuration :simple 
Setup : Run: 
Algorithme : Naive Bayes ,C4.5,KNN 
Méthode : cross validation 
Folds=10,Répitition=10 


Analyse: 


Dataset (1) trees.J4 | (2) lazy. (3) bayes 


71.88 75.16 v 
95.40 95.53 


german _credit (100) 71.25 | 


(100) 94.73 | 


7 Partie KnowledgeFlow : 


Méthode d'évaluation : cross validation 


1- Naive Bayes: 
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Nombre d'instance :1000 


75.4 % 


Correctly Classified Instances 754 


24.6 % 


Incorrectly Classified Instances 246 


Kappa statistic 0.3813 


Precision 0,743 
Recall 0,754 


0,746 


F-Measure 
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Correctly Classified Instances 661 
Incorrectly Classified Instances 

Kappa statistic 

Precision 0,608 

Recall 0,661 

F-Measure 0,620 


3 - C4.5: 


+ 


dataSet taset CrnseVahtion 


ArffLoader 


ClassAssigner 


Een alae 


e 
TextViewer 


Correctly Classified Instances 705 
Incorrectly Classified Instances 295 
Kappa statistic 0.2467 
Precision 0,687 

Recall 0,705 


F-Measure 0,692 


4 - KNN: 
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Classifier 
PerformanceEvaluator 


Correctly Classified Instances 720 


Incorrectly Classified Instances 280 
Kappa statistic 0.3243 
Precision 0,716 

Recall 0,720 


F-Measure 0,718 


é 
Textviewer 


8 -Partie Simple CLI 


Simple CLI est Weka Shell avec ligne de commande et sortie. Avec «aide», la vue d'ensemble 
de toutes les commandes peut être vue. Simple CLI offre un accès à toutes les classes telles 
que les classificateurs, les clusters et les filtres, etc. 


La syntaxe développée pour la ligne de commande est identique au langage Java. Ceci simplifie 
grandement la réalisation de tests unitaires au cours du développement d'applications faisant 
appel aux classes Java de Weka. L'objectif du travail n'étant pas la programmation en Java, on 
ne s’intéressera pas plus à la ligne de commande. 


Le lancement de cet outil se fait en cliquant sur l’option " Simple CLI" présente dans la fenêtre 
de l’environnement Weka. La figure suivante présente l’outil Simple CLI au lancement. 


@ SimpleCL! 


Welcome to the WEKA SimpleCLI 


Enter commands in the textfield at the bottom of 
the window. Use the up and down arrows to move 
through previous commands. 

Command completion for classnames and files is 
initiated with <Tab>. In order to distinguish 
between files and classnames, file names must 

be either absolute or start with '.\' or '~/' 

(the latter is a shortcut for the home directory). 
<Alt+BackSpace> is used for deleting the text 

in the commandline in chunks. 


Type "help" followed by <Enter> to see an overview 
of all commands. 


9- Partie Workbench 


WEKA a un module Workbench qui contient toutes les interfaces graphiques dans une seule fenétre. 


Le lancement de cet outil se fait en cliquant sur l’option " Simple CLI" présente dans la fenêtre 
de l’environnement Weka. La figure suivante présente l’outil Simple CLI au lancement. 


@ Program File Edit Weka Workbench 


Q Preprocess @ Experiment @ Data mining processes © Simple CLI 


Open file... Open URL... Open DB... Generate... 
Filter 
Choose AllFilter 


Current relation Selected attribute 
Relation: None Attributes: None Name: None Weight: None Type: None 
Instances: None Sum of weights: None Missing: None Distinct: None Unique: None 


Attributes 


Visualize All 


Status 
Welcome to the Weka Workbench 


Conclusion : 


Weka est un logiciel très puissant mais dont la prise en main n’est pas évidente pour un 
débutant (ergonomie/lisibilité limitée). 


En revanche, une fois la prise en main effectuée, la génération et le test d’un modèle sont 
réalisables très rapidement. 


Le choix de Weka comme logiciel de datamining dépendra probablement de la complexité 
de la problématique à traiter (big data, algorithmes spécifiques, intégration avec d’autres 
logiciels de business analytics), de la maîtrise statistique/informatique de l’utilisateur, et du 
type de support souhaité (commercial ou non). 


